End-to-end formulation of automatic speech recognition (ASR) and speech translation (ST) makes it easy to use a single model for both multilingual ASR and many-to-many ST. In this paper, we propose streaming language-agnostic multilingual speech recognition and translation using neural transducers (LAMASSU). To enable multilingual text generation in LAMASSU, we conduct a systematic comparison between specified and unified prediction and joint networks. We leverage a language-agnostic multilingual encoder that substantially outperforms shared encoders. To enhance LAMASSU, we propose to feed target LID to encoders. We also apply connectionist temporal classification regularization to transducer training. Experimental results show that LAMASSU not only drastically reduces the model size but also outperforms monolingual ASR and bilingual ST models.
translated by 谷歌翻译
弱监督的视听暴力检测旨在区分包含带有视频级标签的多模式暴力事件的片段。许多先前的作品以早期或中间的方式执行视听整合和互动,但在弱监督的设置上忽略了模态异质性。在本文中,我们分析了多种实例学习(MIL)程序的模式异步和未分化的实例现象,并进一步研究了其对弱监督视听学习的负面影响。为了解决这些问题,我们提出了一种以自我验证(MACIL-SD)策略学习的方式感知的对比实例。具体而言,我们利用轻量级的两流网络来生成音频和视觉袋,其中单峰背景,暴力和普通实例以一种无监督的方式聚集到半袋中。然后,将音频和视觉剧烈的半袋表示作为正对组装,将暴力半袋与背景和正常实例相结合,以对比性负对。此外,将自我验证模块应用于将单峰视觉知识传输到视听模型,该模型减轻了噪音并缩小单峰和多模式特征之间的语义差距。实验表明,我们的框架在大规模XD-Violence数据集上的复杂性较低的方法优于先前的方法。结果还表明,我们提出的方法可以用作增强其他网络的插件模块。代码可在https://github.com/justinyuu/macil_sd上找到。
translated by 谷歌翻译
最近,蒙面的预测预训练在自我监督的学习(SSL)方面取得了显着的进展,以进行语音识别。它通常需要以无监督的方式获得的代码簿,从而使其准确和难以解释。我们提出了两种监督指导的代码书生成方法,以提高自动语音识别(ASR)的性能以及预训练效率,要么通过使用混合ASR系统来解码以生成音素级别对准(命名为PBERT),要么通过在上进行集群进行聚类。从端到端CTC模型(命名CTC聚类)提取的监督语音功能。混合动力和CTC模型均经过与微调相同的少量标记语音训练。实验表明,我们的方法对各种SSL和自我训练基准的优势具有显着优势,相对减少了17.0%。我们的预训练模型在非ASR语音任务中还显示出良好的可传递性。
translated by 谷歌翻译
本文介绍了我们针对IWSLT 2022离线任务的端到端Yitrans语音翻译系统的提交,该任务从英语音频转换为德语,中文和日语。 Yitrans系统建立在大规模训练的编码器模型上。更具体地说,我们首先设计了多阶段的预训练策略,以建立具有大量标记和未标记数据的多模式模型。然后,我们为下游语音翻译任务微调模型的相应组件。此外,我们做出了各种努力,以提高性能,例如数据过滤,数据增强,语音细分,模型集合等。实验结果表明,我们的Yitrans系统比在三个翻译方向上的强基线取得了显着改进,并且比去年在TST2021英语 - 德国人中的最佳端到端系统方面的改进+5.2 BLEU改进。根据自动评估指标,我们的最终意见在英语 - 德国和英语端到端系统上排名第一。我们使代码和模型公开可用。
translated by 谷歌翻译
最近,即使预训练目标是为语音识别而设计的,自我监督学习(SSL)即使在说话者的识别方面表现出了很强的表现。在本文中,我们研究了哪些因素导致对与说话者相关的任务的自我监督学习成功,例如扬声器验证(SV)通过一系列精心设计的实验。我们对Voxceleb-1数据集的经验结果表明,SSL对SV任务的好处是来自蒙版语音预测丢失,数据量表和模型大小的组合,而SSL量化器具有较小的影响。我们进一步采用了综合梯度归因方法和损失景观可视化,以了解说话者识别性能的自我监督学习的有效性。
translated by 谷歌翻译
本文研究了一种新型的预训练技术,该技术具有未配对的语音数据Segend2C,用于基于编码器的自动语音识别(ASR)。在一个多任务学习框架内,我们使用声音单元(即伪代码)介绍了编码器 - 编码器网络的两个预训练任务,这些任务来自离线聚类模型。一种是通过在编码器输出中通过掩盖语言建模来预测伪代码,例如Hubert模型,而另一个使解码器学会学会重建伪代码自动加工,而不是生成文本脚本。通过这种方式,解码器学会了在学习生成正确的文本之前先用代码重建原始语音信息。在Librispeech语料库上进行的综合实验表明,在没有解码器预训练的情况下,提出的Speek2C可以相对将单词错误率(WER)降低19.2%,并且在最先进的WAV2VEC 2.0和HUBERT上的表现显着优于微调子集为10h和100h。我们在https://github.com/microsoft/speecht5/tree/main/main/speech2c上发布代码和模型。
translated by 谷歌翻译
上下文偏见是端到端自动语音识别(ASR)系统的一项重要且具有挑战性现有方法主要包括上下文lm偏置,并将偏置编码器添加到端到端的ASR模型中。在这项工作中,我们介绍了一种新颖的方法,通过在端到端ASR系统之上添加上下文拼写校正模型来实现上下文偏见。我们将上下文信息与共享上下文编码器合并到序列到序列拼写校正模型中。我们提出的模型包括两种不同的机制:自动回旋(AR)和非自动回旋(NAR)。我们提出过滤算法来处理大尺寸的上下文列表以及性能平衡机制,以控制模型的偏置程度。我们证明所提出的模型是一种普遍的偏见解决方案,它是对域的不敏感的,可以在不同的情况下采用。实验表明,所提出的方法在ASR系统上的相对单词错误率(WER)降低多达51%,并且优于传统偏见方法。与AR溶液相比,提出的NAR模型可将模型尺寸降低43.2%,并将推断加速2.1倍。
translated by 谷歌翻译
在Crypto 2019中,Gohr进行了开创性的尝试,并成功地向NSA块密码SPECK32 / 64进行了深度学习,实现了比纯差分区分的更高的精度。通过其本质,数据中的挖掘有效特征在数据驱动的深度学习中起着至关重要的作用。在本文中,除了从密文对的训练数据中考虑信息的完整性,还考虑了关于差分密码分析结构的域知识也被认为是深度学习的培训过程,提高性能。此外,基于SAT / SMT求解器,我们发现其他高概率兼容差分特性,与以前的工作相比有效地提高了性能。我们建立针对西蒙和Simeck的神经区别师(NDS)和相关关键的神经区别SIMON32 / 64的ND和RKND分别达到11-,11轮,精度分别为59.55%和97.90%。对于Simon64 / 128,ND在13轮达到60.32%的准确性,而RKND为95.49%。对于SIMECK32 / 64,获得11-,14轮的ND和RKND,分别达到63.32%和87.06%的准确度。我们为SIMECK64 / 128建立了17轮ND和21轮RKND,精度分别为64.24%和62.96%。目前,这些是Simon32 / 64,Simon64 / 128,Simeck32 / 64和Simeck64 / 128的更高精度的最长(相关关键)的神经区别。
translated by 谷歌翻译
最近,先驱工作发现,演讲预训练模型可以解决全堆栈语音处理任务,因为该模型利用底层学习扬声器相关信息和顶层以编码与内容相关的信息。由于网络容量有限,我们认为如果模型专用于音频内容信息学习,则可以进一步提高语音识别性能。为此,我们向自我监督学习(ILS-SSL)提出中间层监督,这将模型通过在中间层上添加额外的SSL丢失来尽可能地专注于内容信息。 LibrisPeech测试 - 其他集合的实验表明,我们的方法显着优于Hubert,这实现了基数/大型模型的W / O语言模型设置的相对字错误率降低了23.5%/ 11.6%。详细分析显示我们模型的底层与拼音单元具有更好的相关性,这与我们的直觉一致,并解释了我们对ASR的方法的成功。
translated by 谷歌翻译
自我监督学习(SSL)在语音识别方面取得了巨大的成功,而有限的探索已尝试完成其他语音处理任务。由于语音信号包含多方面的信息,包括说话者身份,副语言学,口语内容等,学习所有语音任务的通用表示都具有挑战性。为了解决该问题,我们提出了一个新的预培训模型WAVLM,以解决全堆栈的下游语音任务。 Wavlm共同学习了蒙面的语音预测和预训练。通过这种方式,WAVLM不仅可以通过掩盖的语音预测来保持语音内容建模能力,而且还可以通过语音denoing来提高非ASR任务的潜力。此外,WAVLM还采用封闭式的变压器结构的封闭相对位置偏置,以更好地捕获输入语音的序列排序。我们还将培训数据集从60k小时扩展到94K小时。 WAVLM大型在精湛的基准上实现了最先进的性能,并在其代表性基准上为各种语音处理任务带来了重大改进。代码和预培训模型可在https://aka.ms/wavlm上找到。
translated by 谷歌翻译